Skip to main content

ik 分词

ik分词

下载与安装

下载 对应版本的 zip 包 https://github.com/medcl/elasticsearch-analysis-ik/releases

解压到 ElasticSearch 的 plugins 目录

重启生效

使用

ik_smart

GET _analyze
{
"analyzer": "ik_smart",
"text": "中国共产党"
}

结果

# GET _analyze
{
"tokens" : [
{
"token" : "中国共产党",
"start_offset" : 0,
"end_offset" : 5,
"type" : "CN_WORD",
"position" : 0
}
]
}

ik_max_word 最小分词单位

GET _analyze
{
"analyzer": "ik_max_word",
"text": "中国共产党"
}

结果

# GET _analyze
{
"tokens" : [
{
"token" : "中国共产党",
"start_offset" : 0,
"end_offset" : 5,
"type" : "CN_WORD",
"position" : 0
},
{
"token" : "中国",
"start_offset" : 0,
"end_offset" : 2,
"type" : "CN_WORD",
"position" : 1
},
{
"token" : "国共",
"start_offset" : 1,
"end_offset" : 3,
"type" : "CN_WORD",
"position" : 2
},
{
"token" : "共产党",
"start_offset" : 2,
"end_offset" : 5,
"type" : "CN_WORD",
"position" : 3
},
{
"token" : "共产",
"start_offset" : 2,
"end_offset" : 4,
"type" : "CN_WORD",
"position" : 4
},
{
"token" : "党",
"start_offset" : 4,
"end_offset" : 5,
"type" : "CN_CHAR",
"position" : 5
}
]
}

自定义分词库

自动设置分词的配置文件在 E:\WAMP\elasticsearch-7.6.2\plugins\ik\config\IKAnalyzer.cfg.xml

本目录下新建一个 xiaokang.dic 内容是每个词是一行。 保存后打开 IKAnalyzer.cfg.xml 文件 设置

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
<comment>IK Analyzer 扩展配置</comment>
<!--用户可以在这里配置自己的扩展字典 -->
<entry key="ext_dict">xiaokang.dic</entry>
<!--用户可以在这里配置自己的扩展停止词字典-->
<entry key="ext_stopwords"></entry>
<!--用户可以在这里配置远程扩展字典 -->
<!-- <entry key="remote_ext_dict">words_location</entry> -->
<!--用户可以在这里配置远程扩展停止词字典-->
<!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>